Whisper JAX - Whisper JAX

模型详细情况和参数

Whisper JAX

模型全称
Whisper JAX
模型简称
Whisper JAX
模型类型
基础大模型
发布日期
2023-04-14
预训练文件大小
10GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
15.5
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
暂无
基础模型
...
ControlNet
查看详情
发布机构

Whisper JAX 简介

Whisper是由OpenAI开源的语言识别模型,Whisper JAX则是JAX的实现版本。主要基于? Hugging Face Transformers的Whisper实现。与OpenAI的PyTorch代码相比,Whisper JAX运行速度快了70多倍,是目前最快的Whisper实现。

JAX代码兼容CPU、GPU和TPU,并且可以作为独立的运行程序(参见Pipeline Usage)或推理端点(参见Creating an Endpoint)运行。


Whisper的Flax权重文件与JAX版本的预训练结果文件完全兼容,各个版本的信息和能力如下:

模型size参数数量是否仅支持英文多语言能力
tiny3900万YY
base7400万YY
small2.44亿YY
medium7.69亿YY
large15.5亿NY
large-v215.5亿NY


官方公开的是PyTorch版本,需要先使用from_pt来将其转换成Flax版本。各个不同版本的Whisper对比结果:


Whisper发布者代码框架后端硬件1分钟10分钟1个小时
OpenAIPyTorchGPU13.8108.31001
TransformersPyTorchGPU4.5420.2126.1
Whisper JAXJAXGPU1.729.3875.3
Whisper JAXJAXTPU0.452.0113.8

上表中的1分钟、10分钟和1个小时分别代表不同模型转换这么长时间语音所需要的推断时间,单位是秒。可以看到,如果都是用GPU的话,Whisper一个小时的语音转换只要75秒,而OpenAI官方的模型需要1001秒,也就是十几分钟!如果使用TPU,那么1个小时的语音转换只要13.8秒!不得不说,谷歌全家桶的性能非常赞!


Whisper JAX模型的GitHub开源地址: https://github.com/sanchit-gandhi/whisper-jax 



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Whisper JAX所属的领域
Whisper JAX相关的任务